بازشناسی مقاوم گفتار با روش دادگان مفقود با استفاده از شبکه عصبی دوسویه

thesis
abstract

عملکرد سیستم های بازشناسی گفتار (asr) زمانی که گفتار توسط نویز تخریب شده باشد، به شدت کاهش می یابد. روش های ویژگی های مفقود قصد دارند که این کاهش بازشناسی را با حذف مولفه هایی از نمایش زمانی- فرکانسی گفتار (اسپکتروگرام) که بیانگر نسبت سیگنال به نویز (snr) پایین باشند، کاهش دهند. این روش ها اثر خود را در نتایج صحت بازشناسی نشان می دهند که در مقابل اثر نویز جمعی، مقاوم بودن بالای خود را بروز می دهند. در این پایان نامه، ما از یک شیوه ی رایج جبران سازی دادگان که در آن عناصر مفقود، برای بدست آوردن اسپکتروگرام کامل بازسازی می شوند استفاده خواهیم کرد که از آن با عنوان جبران سازی مبتنی بر دادگان مفقود یاد می شود. در این شیوه برای تخمین مولفه های مفقود اسپکتروگرام، از همبستگی بین مولفه ها، استفاده می شود. در ادامه یک شیوه جدید مطرح می کنیم که الگوی ویژگی های مفقود را با دیدگاهی نو به عنوان مسئله جبران سازی دادگان مطرح می کند. در این روش از شبکه عصبی دوسویه بهره گرفته می شود که به صورت هم زمان بر روی دادگان تمیز و نویزی جهت بازشناسی آواهای گفتار آموزش داده می شود تا با انجام یک سری پردازش های غیر خطی و دوطرفه (جلوسو و برگشتی) بتوان از دانش نهفته در مدل، ناشی از یاد گرفتن گفتار تمیز و نویزی بهره گرفته و بردارهای بازنمایی گفتار را در جهت افزایش صحت بازشناسی آواهای گفتار بهبود بخشید. در هر دو روش ویژگی های کپستروم بدست آمده از اسپکتروگرام بازسازی شده، برای بازشناسی مورد استفاده قرار می گیرند بدون اینکه سیستم بازشناسی نیازی به اصلاح داشته باشد. روش مبتنی بر دادگان مفقود، از دو بخش شناسایی مولفه های مفقود و اصلاح آن ها تشکیل شده است. روش اصلاح ویژگی مبتنی بر شبکه عصبی دوسویه، از این قاعده مستثنی بوده چرا که نیازی به شناسایی مولفه های مفقود ندارد و بازسازی را در جهت هرچه شبیه تر شدن تمامی مولفه ها (خواه معتبر باشد خواه نامعتبر) به مولفه های گفتار تمیز صورت می دهد و این یک برتری بسیار چشمگیری است که در این تحقیق حاصل شده است؛ چرا که در عمل، بحث شناسایی مولفه های مفقود، که یک بحث چالش برانگیز در تمامی روش های بکارگرفته شده در جهت بازشناسی مقاوم گفتار است و ارتباط مستقیمی با میزان صحت بازشناسی دارد را حذف می کند. ارزیابی هایی که در این تحقیق بر روی دو روش ذکر شده صورت گرفت، بهبود 2/4 درصدی بر روی صحت بازشناسی بدست آمده برای گفتار نویزی تخریب شده توسط نویز با نسبت سیگنال به نویز 0 db با استفاده از روش اصلاح ویژگی مبتنی بر دادگان مفقود، حاصل کرد و بهمان نحو بهبود 5/8 درصدی را برای همان نرخ نویز تخریبی با استفاده از روش اصلاح ویژگی مبتنی بر شبکه عصبی دوسویه، به نمایش گذاشت. در آخر کار با ترکیب دو روش یاد شده، توانستیم پیشرفت چشمگیری در حدود 10 درصد در روند بازشناسی سیگنال های تخریب شده بدست آوریم.

First 15 pages

Signup for downloading 15 first pages

Already have an account?login

similar resources

روشی جدید در بازشناسی مقاوم گفتار مبتنی بر دادگان مفقود با استفاده از شبکه عصبی دوسویه

Performance of speech recognition systems is greatly reduced when speech corrupted by noise. One common method for robust speech recognition systems is missing feature methods. In this way, the components in time - frequency representation of signal (Spectrogram) that present low signal to noise ratio (SNR), are tagged as missing and deleted then replaced by remained components and statistical ...

full text

بازشناسی مقاوم گفتار با استفاده از ویژگی‌ الگوهای زمانی به دست آمده از ساختار شبکه عصبی بهینه شده MTMLP

ویژگی‌ الگوهای زمانی سیگنال صوتی از دو حوزه زمانی و یا بردارهای بازنمایی شده قابل استخراج است. این ویژگی دربرگیرنده اطلاعات و مشخصات زمان بلند از تغییرات پیوسته واحدهای گفتاری است. در این مقاله، ویژگی الگوهای زمانی با استفاده از خروجی مقدار احتمال پسین واجی ساختار بهینه شده شبکه عصبی MTMLP، از مجموعه بردارهای بازنمایی مبتنی بر طیف (مانند ویژگی گفتاری‌ LFBE) و همچنین، مبتنی بر کپستروم (مانند ویژ...

full text

بازشناسی گفتار نویزی با اصلاح روش خوشه بندی در دادگان مفقود

بر خلاف سیستم شنوایی انسان ها، سیستم های خودکار بازشناسی گفتار نسبت به نویز زمینه بسیار حساس هستند. این اثر ناشی از تفاوت مابین آمارگان مدل های گفتار تعلیمی است با آنچه که در شرایط واقعی از آنها استفاده می شود. جبران نکردن چنین عدم انطباقی، دقت سیستم های بازشناسی را به شدت کاهش می دهد. در این گزارش، جهت جبران عدم انطباق بین دادگان تعلیم و تست از یکی از روش های ویژگی مفقود تحت عنوان بازسازی مب...

15 صفحه اول

شبکه عصبی پیچشی با پنجره‌های قابل تطبیق برای بازشناسی گفتار

Although, speech recognition systems are widely used and their accuracies are continuously increased, there is a considerable performance gap between their accuracies and human recognition ability. This is partially due to high speaker variations in speech signal. Deep neural networks are among the best tools for acoustic modeling. Recently, using hybrid deep neural network and hidden Markov mo...

full text

بازشناسی مقاوم چهره با استفاده از شبکه عصبی

ویژگیهای استخراج شده از تصاویر چهره انسان، تحت تأثیر تنوعات مختلف نظیر تغییرات در نورپردازی، چرخش سر، داشتن حالتهای احساسی و سایر موارد تغییر می کند. به دلیل تأثیر این تنوعات غیرخطی در الگوهای ورودی، کارآیی سامانه های خودکار بازشناسی چهره در شرایط کنترل نشده به طور چشم گیری کاهش می یابد. برای افزایش کارآیی سامانه های بازشناسی چهره نسبت به این تنوعات، باید ویژگیهای مشابه برای تصاویر هر فرد استخر...

15 صفحه اول

ارتقاء کیفیت بازشناسی گفتار تلفنی و غیر تلفنی با استفاده از اشتراک دانش آوایی دادگان

سیستمهای بازشناسی مقاوم گفتار به سیستمهایی اطلاق می گردد که در شرایط عدم انطباق داده های آموزش و آزمون صحت بازشناسی قابل قبولی داشته باشند. در تحقیق حاضر یک سیستم بازشناسی مقاوم گفتار تلفنی، مبتنی بر اصلاح بردارهای بازنمایی توسط شبکه عصبی دوسویه (یک شبکه عصبی چند لایه معمولی به علاوه یک شاخه برگشتی که اطلاعات لایه مخفی شبکه را با ورودی شبکه ترکیب می کند) و مدلهای مخفی مارکف به عنوان مدلهای بازش...

15 صفحه اول

My Resources

Save resource for easier access later

Save to my library Already added to my library

{@ msg_add @}


document type: thesis

وزارت علوم، تحقیقات و فناوری - دانشگاه شاهد

Hosted on Doprax cloud platform doprax.com

copyright © 2015-2023